Statistik Deskriptif

Pengertian

Statistika Deskriptif adalah metode-metode yang berkaitan dengan pengumpulan data dan penyajian suatu gugus data sehingga memberikan informasi yang berguna

Statistika Deskriptif juga merupakan metode yang sangat sederhana. Metode ini hanya medeskripsikan kondisi dari data yang sudah anda miliki dan menyajikannya dalam bentuk tabel diagram grafik dan bentuk lainnya yang disajikan dalam uraian-uraian singkat dan juga terbatas. Dengan Statistika deskriptif, kumpulan data yang diperoleh akan tersaji dengan ringkas dan rapi serta dapat memberikan informasi inti dari kumpulan data yang ada sehingga dapat meyakinkan pengguna menggunakan data-data yang tersaji dengan ringkas tersebut.

Tipe Statistik Deskriptif

Mean(rata-rata)

Mean adalah "nilai rata-rata" dari beberapa buah data. Nilai mean dapat ditentukan dengan membagi jumlah data dengan banyaknya data.

Mean (rata-rata) merupakan suatu ukuran pemusatan data.Mean suatu data juga merupakan statistik karena mampu menggambarkan bahwa data tersebut berada pada kisaran mean data tersebut. Mean tidak dapat digunakan sebagai ukuran pemusatan jenis data normal dan ordinal.

Berdasarkan definisi dari mean adalah jumlah seluruh data dibagi dengan banyaknya data. Dengan kata lain jika kita memiliki N data sebagai berikut maka data tersebut dapat kita tuliskan sebagai berikut di bawah ini: $$ \bar x={\sum \limits_{i=1}^{n} x_i\over N} = {x_1 + x_2 + x_3 + . . . . . + x_n \over N} $$

Dimana :

X bar = x rata-rata = nilai rata-rata sampel

x = data ke n

n = banyaknya data

Median

Median menentukan letak tengah data setelah data disusun menurut urutan nilainya. Bisa juga dikatakan sebagai nilai pertengahan dari sekelompok data yang telah diurutkan menurut besarnya. Jika banyaknya datanya ganjil, maka rumus mediannya : $$ Me=Q_2 =\left ( \begin{matrix} n+1 \over 2 \end{matrix} \right),jika\quad n\quad Ganjil $$ Dan jika banyaknya datanya genap maka mediannya adalah : $$ Me=Q_2 =\left ( \begin{matrix} {xn \over 2}{xn+1\over2} \over 2 \end{matrix} \right), jika\quad n\quad Genap $$

Keterangan :

Me = Median dari kelompok data

n : banyaknya data

Modus

Modus adalah nilai yang sering muncul. Jika kita tertarik pada data frekuensi , jumlah dari suatu nilai dari kumpulan data, maka kita menggunakan modus. Modus sangat baik digunakan untuk data yang memili skala kategorik yaitu nominal atau ordinal. Modus bisa dihitung menggunakan rumus sebagai berikut : $$ M_o = Tb + p{b_1 \over b_1 +b_2} $$

Dimana :

Mo = banyaknya nilai yang sama / sering muncul

Tb = Tepi bawah yang memiliki frekuensi tertenggi (kelas modus)

b1= Interval kelas b1 (Frekuensi kelas modus dikurangi frekuensi kelas interval terdekat sebelumnya)

b2= Interval kelas b2 (Frekuensi kelas modus dikurangi frekuensi kelas interval terdekat sesudahnya).

p = panjang interval

Standar Deviasi

Standar Deviasi dan Varians adalah salah satu teknik statistik yang digunakan untuk menjelaskan hormogenitas kelompok. Varians merupakan jumlah kuadrat semua deviasi nilai-nilai individual terhadap rata-rata kelompok. Sedangkan akar dari varians disebut dengan standar deviasi atau simpangan baku.

Standar Deviasi dan Varians (Simpangan baku) merupakan variasi sebaran data. Semakin kecil nilai sebarannya berarti variasi nilai data makin sama. Jika sebarannya bernilai 0, maka nilai semua datanya adalah sama. Semakin besar nilai sebarannya berarti data semakin bervariasi.

Standar Deviasi bisa didapat menggunakan rumus sebagai berikut : $$ \sigma^ = \sqrt {{\sum \limits_{i=1}^{n} (x_i - \bar x)^2 \over n}} $$

Dimana :

x = data ke n x bar = x rata-rata = nilai rata-rata sampel n = banyaknya data

Varians

Varians merupakan rata-rata dari selisih kuadrat tersebut yang merupakan suatu ukuran penyimpangan dari observasi. Simbol varians pada ukuran populasi zigma kuadrat pada ukuran sample S2. Akar dari varians dinamakan standar deviasi atau simpangan baku. Varians bisa didapat menggunakan rumus sebagai berikut : $$ \sigma^2 = {\sum \limits_{i=1}^{n} (x_i - \bar x)^2 \over n} $$ Dimana :

Xi = titik data

x bar = rata-rata dari semua titik data

n = banyak dari anggota data

Skewness

Skewness (kemencengan) atau bisa disebut sebagai penyimpangan dari kesimetrian dari suatu distribusi adalah derajat ketidaksimetrisan suatu distribusi. Jika kurva frekuensi suatu distribusi memiliki ekor yang lebih memanjang ke kanan (dilihat dari meannya) maka dikatakan menceng kana (positif) dan jika sebaliknya maka menceng kiri (negatif). Secara perhitungan, skewness adalah momen ketiga terhadap mean. Distribusi normal (dan distribusi simetris lainnya, misalnya distribusi t atau Cauchy) memiliki skewness 0 (nol). Skewness bisa dihitung menggunakan rumus sebagai berikut: $$ Skewness = {\sum \limits{i=1}^n (x_i - \bar x)^i \over (n-1) \sigma^3} $$ Dimana :

Xi = titik data

x bar = rata-rata dari distribusi

n = jumlah titik dalam distribusi

o = standar deviasi

Quartile

Quartile adalah nilai-nilai yang membagi segugus pengamatan menjadi empat bagian yang sama besar. Nilai-nilai itu dilambangkan sebagai Q1,Q2, dan Q3. Lambang tersebut mempunyai sifat bahwa 25% data jatuh dibawah adalah Q1, 50% data jatuh dibawah adalah Q2, dan 75% data jatuh didibawah adalah Q3. Quartile bisa dihitung menggunakan rumus sebagai berikut : $$ Q_1 = {1\over 4}(n +1 ),Quartil\quad 1\quad dalam\quad 0.25 $$

$$ Q_2 = {1\over 2}(n + 1),Quartil\quad 2\quad dalam\quad 0.50 $$

$$ Q_3 = {3\over 4} (n + 1),Quartil\quad 3\quad dalam\quad 0.75 $$

Dimana :

n = sebagai jumlah datanya

Penerapan Statistik Deskriptif Menggunakan Python

Alat dan Bahan

Pada Penerapan ini kita harus menggunakan data random 500 dengan jangkauan yang telah di tentukan yang disimpan dalam bentuk .csv dan untuk mempermudah penerapan ini kita harus menginstall dan mendownload hal-hal yang diperlukan untuk bisa mempermudah penerapan statistik deskriptif ini menggunakan python.

Dalam jendala cmd kita harus menginstall yaitu:

1. Pandas, digunakan untuk data manajemen dan data analysis

2. Scipy, digunakan untuk libary yang berisikan kumpulan algoritma dan fungsi matematika

Pada Langkah Pertama

Kita harus memasukkan libary yang telah disiapkan sebelumnya

import pandas as pd
from scipy import stats

Langkah Kedua ini

Kita memasukkan data csv tersebut dan disiapkan

df = pd.read_csv('Book1.csv', sep=';')

Data yang ada di csv berikut ini:

X1 X2 X3 X4
0 63 44 123 109
1 52 32 112 75
2 53 30 105 83
3 56 31 125 88
4 66 32 102 76
5 69 22 129 95
6 51 42 111 102
7 80 45 126 109
8 73 43 114 74
9 65 46 106 80
10 55 33 114 77
11 80 37 100 92
12 55 38 110 84
13 60 46 119 86
14 54 36 113 104
15 68 50 118 104
16 55 36 118 84
17 56 20 100 100
18 55 41 113 75
19 56 22 100 93
20 61 34 105 97
21 66 36 101 82
22 70 33 124 92
23 63 35 113 81
24 80 44 100 88
25 67 50 120 86
26 58 28 109 72
27 73 22 128 103
28 70 36 102 74
29 55 40 113 105
... ... ... ... ...
470 78 20 110 79
471 63 28 108 92
472 64 20 115 86
473 69 37 127 78
474 74 28 126 73
475 79 28 116 100
476 69 48 103 80
477 60 21 120 77
478 73 35 112 75
479 71 41 128 92
480 67 41 110 84
481 63 27 129 72
482 75 46 107 76
483 55 32 113 109
484 50 32 114 81
485 62 32 103 80
486 77 34 109 77
487 58 46 111 97
488 64 46 121 101
489 73 39 114 105
490 51 32 100 75
491 50 32 103 96
492 67 41 129 72
493 57 31 113 106
494 77 38 107 75
495 55 50 117 87
496 58 23 106 95
497 58 36 112 78
498 55 49 102 87
499 50 34 112 106

500 rows × 4 columns

Langkah Ketiga

Kita harus membuat Data Penyimpanan (Dictionary) yang digunakan untuk bisa menampung nilai yang akan ditampilkan. Selanjutnya mengambil dari dari kolom-kolom data yang ada di dalam csv dengan cara diiterasi serta dihitung dengan berbagai metode yang telah disiapkan oleh pandas itu sendiri. Kemudian hasil tersebut disimpan pada penyimpanan yang telah disiapkan.

data = {"Stats" : ['Min','Max','Mean','Standar Deviasi','Variasi','Skewnes',
                  'Quantile 1','Quantile 2','Quantile 3','Median','Modus']}
for i in df.columns :
    data[i] = [df[i].min(),df[i].max(),df[i].mean(),
               round(df[i].std(), 2), round(df[i].var(), 2),
               round(df[i].skew(), 2),df[i].quantile(0.25),
               df[i].quantile(0.50),df[i].quantile(0.75),
               df[i].median(), stats.mode(df[i]). mode[0]]

Pada Langkah Keempat ini

Kita menvisualisasikan hasil tersebut dalam bentuk dataframe

tes = pd.DataFrame(data,columns = ['Stats']+ [x for x in df.columns])
tes

Berikut Hasil Gabungan dari code yang telah di buat untuk menampilkan program tabel dibawah ini

import pandas as pd
from scipy import stats
df = pd.read_csv('Book1.csv', sep=';')
data = {"Stats" : ['Min','Max','Mean','Standar Deviasi','Variasi','Skewnes',
                  'Quantile 1','Quantile 2','Quantile 3','Median','Modus']}
for i in df.columns :
    data[i] = [df[i].min(),df[i].max(),df[i].mean(),
               round(df[i].std(), 2), round(df[i].var(), 2),
               round(df[i].skew(), 2),df[i].quantile(0.25),
               df[i].quantile(0.50),df[i].quantile(0.75),
               df[i].median(), stats.mode(df[i]). mode[0]]
tes = pd.DataFrame(data,columns = ['Stats']+ [x for x in df.columns])
tes

Hasil Program yang telah divisualiasikan

Stats X1 X2 X3 X4
0 Min 50.00 20.000 100.000 70.000
1 Max 80.00 50.000 130.000 110.000
2 Mean 64.89 35.384 114.094 89.784
3 Standar Deviasi 8.97 9.100 8.960 11.620
4 Variasi 80.49 82.860 80.250 135.110
5 Skewnes -0.04 -0.090 0.110 -0.010
6 Quantile 1 57.00 28.000 106.000 80.000
7 Quantile 2 66.00 36.000 113.000 90.000
8 Quantile 3 73.00 43.000 121.000 99.000
9 Median 66.00 36.000 113.000 90.000
10 Modus 73.00 20.000 102.000 97.000

Referensi

1. https://id.wikipedia.org/wiki/Statistika_deskriptif

2. https://rumus.co.id/mean-median-modus-data-kelompok/

3. http://emerer.com/cara-menghitung-median-modus-mode-kuartil-dan-desil/

4. https://carasiiumi.com/cara-menghitung-standar-deviasi/

5. http://muhammadsurindra.blogspot.com/2015/11/tugas2-pengantar-statistika-kaliini.html